package com.bulldog.spider;

import lombok.Data;
import us.codecraft.webmagic.model.annotation.ComboExtract;
import us.codecraft.webmagic.model.annotation.ExtractBy;
import us.codecraft.webmagic.model.annotation.HelpUrl;
import us.codecraft.webmagic.model.annotation.TargetUrl;

import java.util.List;

/**
 * 对于博客页，HelpUrl是列表页，TargetUrl是文章页。
 * 对于论坛，HelpUrl是帖子列表，TargetUrl是帖子详情。
 * 对于电商网站，HelpUrl是分类列表，TargetUrl是商品详情
 * TargetUrl中的自定义正则表达式：
 * 将URL中常用的字符.默认做了转义，变成了\.
 * 将"*"替换成了".*"，直接使用可表示通配符。
 */
// 待爬页面：https://daopei.net/home/model/index/cid/29/id/44.html
@TargetUrl("https://daopei.net/home/model/index/cid/29/id//\\w+")
@HelpUrl("https://daopei.net/list//\\w+")
@Data
public class DepartRepo {

    // `tidyText`()所有的直接和间接文本子节点，并将一些标签替换为换行，使纯文本显示更整洁
    // 姓名
    @ExtractBy(value = "//div[@class='am-fr']/div/h1/text()", notNull = true)
    public String name;

    // 简介
    @ExtractBy(value = "//div[@class='am-fr']/div/p/text()", notNull = true)
    public List<String> introduction;

    // 履历
    @ExtractBy(value = "//div[@id='show-tab-1']/p", notNull = true)
    public List<String> resume;
}